服务监视应用程序不断生成数据以监视其可用性。因此,实时和准确地对传入数据进行分类至关重要。为此,我们的研究开发了一种使用Learn ++来处理不断发展的数据分布的自适应分类方法。这种方法顺序预测并使用新数据更新监视模型,逐渐忘记了过去的知识并确定了突然的概念漂移。我们采用从工业应用获得的连续数据块来逐步评估预测变量的性能。
translated by 谷歌翻译
People capture photos and videos to relive and share memories of personal significance. Recently, media montages (stories) have become a popular mode of sharing these memories due to their intuitive and powerful storytelling capabilities. However, creating such montages usually involves a lot of manual searches, clicks, and selections that are time-consuming and cumbersome, adversely affecting user experiences. To alleviate this, we propose task-oriented dialogs for montage creation as a novel interactive tool to seamlessly search, compile, and edit montages from a media collection. To the best of our knowledge, our work is the first to leverage multi-turn conversations for such a challenging application, extending the previous literature studying simple media retrieval tasks. We collect a new dataset C3 (Conversational Content Creation), comprising 10k dialogs conditioned on media montages simulated from a large media collection. We take a simulate-and-paraphrase approach to collect these dialogs to be both cost and time efficient, while drawing from natural language distribution. Our analysis and benchmarking of state-of-the-art language models showcase the multimodal challenges present in the dataset. Lastly, we present a real-world mobile demo application that shows the feasibility of the proposed work in real-world applications. Our code and data will be made publicly available.
translated by 谷歌翻译
政策梯度方法被广泛用于学习控制政策。它们可以轻松地分配给多名工人,并在许多领域中达到最新结果。不幸的是,它们表现出很大的差异,随后遭受了高样本的复杂性,因为它们在整个轨迹上汇总了梯度。在另一个极端情况下,计划方法,例如树木搜索,使用考虑未来LookAhead的单步过渡来优化策略。这些方法主要用于基于价值的算法。基于计划的算法需要一个正向模型,并且在每个步骤上都是计算密集型的,但更有效。在这项工作中,我们介绍了SoftTreemax,这是将树搜索整合到策略梯度中的第一种方法。传统上,针对单个状态行动对计算梯度。取而代之的是,我们基于树的策略结构在每个环境步骤中利用树叶的所有梯度。这使我们能够将梯度的差异减少三个数量级,并与标准策略梯度相比,从更好的样本复杂性中受益。在Atari上,与分布式PPO相比,SoftTreemax在运行时的表现高达5倍。
translated by 谷歌翻译
在本文中,我们介绍了一种基于在线模型的新型强化学习算法,该学习算法使用无知的转换来传播不确定性以预测未来的奖励。先前的方法要么用高斯在预测范围的每个步骤上近似状态分布,要么执行蒙特卡洛模拟以估计奖励。我们的方法取决于所使用的sigma点的数量,可以传播平均值和协方差,或与最小点或高阶矩具有与蒙特卡洛相似的高阶矩。整个框架是作为用于在线培训的计算图。此外,为了防止通过通用状态依赖性不确定性模型传播时Sigma点的爆炸数,我们将Sigma点的扩展和收缩层添加到我们的图形中,该图形是使用矩匹配的原理设计的。最后,我们提出了受顺序二次编程启发的梯度下降,以在存在状态约束的情况下更新策略参数。我们证明了在模拟中使用两种应用的建议方法。当动力学以状态依赖性的不确定性知道时,第一个为卡车杆问题设计了一个稳定控制器。第二个示例是在我们以前的工作之后,在存在输入约束的情况下,调整了基于控制屏障函数函数的二次编程控制器的参数。
translated by 谷歌翻译
在本文中,我们考虑通过结合目标函数的曲率信息来改善随机方差减少梯度(SVRG)方法。我们建议通过将其合并到SVRG中,以使用计算有效的Barzilai-Borwein(BB)方法来降低随机梯度的方差。我们还将BB步骤大小合并为其变体。我们证明其线性收敛定理不仅适用于所提出的方法,还适用于SVRG的其他现有变体,并使用二阶信息。我们在基准数据集上进行了数值实验,并表明具有恒定步长的提出方法的性能优于现有方差减少的方法,这些方法对于某些测试问题。
translated by 谷歌翻译
机器学习已被用来识别脸上的情绪,通常是通过寻找8种不同的情绪状态(中性,快乐,悲伤,惊喜,恐惧,厌恶,愤怒和鄙视)。我们考虑两种方法:基于面部标志的功能识别和所有像素的深度学习;每个产生总体准确性58%。但是,他们在不同的图像上产生了不同的结果,因此我们提出了一种结合这些方法的新的元分类器。它以77%的精度产生更好的结果
translated by 谷歌翻译
云数据中心的数字和大小都在成倍增长。这种增加导致网络活动激增,可以更好地避免交通拥堵。最终的挑战是两个方面:(i)设计算法,可以对给定数据中心的复杂流量模式进行定制;但是,与此同时(ii)在低级硬件上运行,具有有效拥塞控制(CC)所需的低潜伏期。在这项工作中,我们提出了一个基于强化学习(RL)的CC解决方案,该解决方案从某些交通情况中学习并成功地将其推广到他人。然后,我们将RL神经网络政策提炼成二进制决策树,以实现与RDMA实时推断所需的$ \ mu $ sec决策延迟。我们在真实网络中部署了NVIDIA NIC的蒸馏政策,并展示了最先进的性能,同时平衡所有测试的指标:带宽,延迟,公平和数据包下降。
translated by 谷歌翻译
现代回顾性分析系统利用级联体系结构减轻瓶颈来计算深神经网络(DNNS)。但是,现有的级联反应有两个局限性:(1)解码瓶颈要么被忽视或规避,要支付重大的计算和存储成本以进行预处理; (2)系统专门用于时间查询,缺乏空间查询支持。本文介绍了COVA,这是一种新颖的级联体系结构,该结构将压缩域和像素域之间的级联计算分开以解决解码瓶颈,从而支持时间和空间查询。 COVA级联分析分为三个主要阶段,其中前两个阶段是在压缩域中执行的,而在像素域中的最后一个阶段。首先,COVA检测一组压缩帧(称为轨道)上移动对象(称为斑点)的出现。然后,使用轨道结果,Cova谨慎地选择了一组最小的帧以获取标签信息,并仅解码它们以计算完整的DNN,从而减轻了解码的瓶颈。最后,Cova将轨道与标签相结合,以产生最终分析结果,用户可以处理时间和空间查询。我们的实验表明,COVA对现代级联系统提供了4.8倍的吞吐量改进,同时施加了适度的精度损失。
translated by 谷歌翻译
解决编码问题的同时学习过程非常复杂。了解学习编码期间所需的技能是非常重要的。作为了解学生在学习编码期间的学生行为和方法的第一步,两个在线编码分配或竞争通过1小时的时间限制进行​​。在每个编码测试结束时进行了一项调查,并收集了不同问题的答案。在深度统计分析中,完成了解学习过程,同时解决编码问题。它涉及许多参数,包括学生行为,他们的方法和编码问题的难度水平。包含情绪和情绪相关问题可以提高整体预测性能,但在提交状态预测中难度级别。通过深入研究229(第一编码竞争数据集)和325(第二编码竞争数据集)数据点,通过深入研究分析两种编码分配或竞争。主要结果是有前途的,这些结果深入了解如何在学生行为,他们的方法,情感和问题难度水平受到学习问题的影响。
translated by 谷歌翻译
我们描述了一种针对零售电子商务(电子商务)的需求而开发的新型决策问题。在使用物流和零售业商业合作者的同时,我们发现,从供应链中最适合的产品(称为成本为服务或CTS)的产品提供的产品成本是一个关键挑战。电子商务供应链的大规模,高性计,大大地理传播,使这一设置成为精心设计的数据驱动决策算法。在这项初步工作中,我们专注于在每次仓库中从任何仓库到多个客户提供多个产品的特定子问题。我们比较几个基线的相对性能和计算效率,包括启发式和混合整数线性规划。我们表明,基于加强学习的算法与这些政策具有竞争力,具有现实世界中有效扩大的潜力。
translated by 谷歌翻译